Prise en compte de l'importance d'un site web dans l'estimation de la probabilité a priori de pertinence d'une page web

نویسندگان

  • Arezki Hammache
  • Mohand Boughanem
  • Rachid Ahmed-Ouamer
چکیده

RÉSUMÉ. Plusieurs caractéristiques ont été utilisées pour estimer la probabilité a priori d’un document comme : la longueur du document, la structure des liens, le facteur temps. Cependant, ces caractéristiques dépendent seulement du document lui même. Or, dans le contexte du web une page web fait partie en général d’un site web. L’idée que nous explorons dans cette article est l’utilisation des caractéristiques du site contenant la page concernée pour conditionner la probabilité a priori de pertinence de la page. Une fois cette probabilité est calculée nous la combinons avec le score obtenu par le contenu de la page web. Cette combinaison des deux évidences est réalisée sous le cadre de modèle de langue. Afin de valider notre idée, nous avons effectué des tests sur la collection TREC « .GOV » ; où nous avons comparé les différentes versions de notre modèle avec deux modèles : le modèle uni gramme qui ne considère que le contenu de la page, et le modèle combinant le contenu d’une page web et la probabilité a priori de la page obtenu en utilisant seulement une caractéristique sur la page (nombre de liens entrants). Les résultats obtenus montrent que notre modèle est très prometteur.

برای دانلود رایگان متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Le Web sémantique n'est pas antisocial

Une série d'articles stimulants [5][6][31][32] a défendu l'importance de la dimension sociale dans la construction d'un cycle de vie du Web sémantique et propose une nouvelle approche (le Web socio-sémantique) que les auteurs opposent radicalement, à l' approche classique du Web sémantique. Loin de remettre en cause cette importance, cet article reprend ici le discours de ces contributions et m...

متن کامل

RELIEFS : Un système pour le filtrage adaptatif de documents textuels basé sur la notion de résonance

Résumé : Nous présentons le système RELIEFS pour RELevance Information Extraction Fuzzy System dédié au filtrage adaptatif de documents textuels. Ce système s'inspire très largement de mécanismes cognitifs intervenant dans les processus de sélection d'information. En particulier, il implémente l'idée de résonance introduite dans la théorie cognitive ART [GROS 76] qui rend compte de la façon don...

متن کامل

Pertinence des Résultats de Recherche de Services Web E-Learning

Résumé. Le nombre de plateformes e-learning à base de services web est de plus en plus croissant. Ces plateformes sont de différents fournisseurs et de différentes caractéristiques et fonctionnalités. Par conséquent, leur découverte devient un défi très important. Les critères de choix et de sélection d’un service d’une plateforme e-learning dépendent, généralement, des contraintes pédagogiques...

متن کامل

La représentation formelle des concepts spatiaux dans la langue

Dans ce chapitre, nous faisons l'hypothèse que l'étude systématique de la sémantique des marqueurs spatiaux de la langue permet de mettre en évidence certaines propriétés et concepts fondamentaux caractérisant les représentations conceptuelles de l'espace. Nous proposons un système formel rendant compte des propriétés révélées par les analyses linguistiques, et nous utilisons ces outils pour re...

متن کامل

Prise en compte des préférences des utilisateurs pour l'estimation de la pertinence multidimensionnelle d'un document

In this paper, we propose a novel personalized aggregation approach to the multidimensional relevance aggregation. The approach is based on a mathematical aggregation operator relying on a fuzzy measure that allow to quantify the importance degree of each relevance dimension for every user as well as the interaction existing between the criteria. The evaluation of our approach is performed on t...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2013